課程資訊
課程名稱
Python與文字探勘專題
Seminar on Python and Text-mining 
開課學期
110-2 
授課對象
社會科學院  國家發展研究所  
授課教師
鄧志松 
課號
NtlDev7146 
課程識別碼
341 M6030 
班次
 
學分
2.0 
全/半年
半年 
必/選修
選修 
上課時間
 
上課地點
 
備註
上課時間及地點請參考本所網頁。
限碩士在職專班生
總人數上限:30人 
課程網頁
https://piazza.com/class/kznwrtn6gln5pr 
課程簡介影片
 
核心能力關聯
核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述

大數據文字探勘為近年來快速發展的研究途徑,有別於傳統的文本分析,它必須仰賴電腦程式,讀取文本,經過自然語言處理,將文字轉換為向量,藉此結合資訊科學發展的各種演算法,進行語言文字的分析。用電腦處理資料,最大的好處是,快速精確,突破資料量的限制;另一方面,文字探勘可以進行文字間的細微比對、尋找文本的律則,這遠非傳統靠人工的研究方法所能及,因此常有出人意表的發現。本課程適合無程式基礎,但願意花時間學習的同學,課程由淺入深、兼顧理論與實際,帶領同學實際操作。唯修課同學必須自備電腦,每週完成指定的作業,期末完成一個分組專案,以培養獨立研究的能力。 

課程目標
課程目標
1 具備 python 程式語言基本寫作能力。
2 瞭解文字探勘的原理與實際操作方法。
3 靈活運用範例程式,解決自己碰到的問題。
4 熟悉網路學習社群,建立自己的學習網絡,培養自主學習的能力。

本門課的學習建議
1 程式學習部分,請從每週的學習包(每週課前均會提供)出發。學習包是範例程式,裡面有程式、註解。請依學習包指示,逐一執行,先瞭解程式的目的,觀察程式執行的結果,網路上有大量的教學指引,可配合參考。
2 上課時,確定學習包可以正常執行,下課後,可反覆練習,嘗試調整參數,修改程式,觀察執行的結果。
3 學習包裡附的練習(有解答)與作業( 沒有解答),嘗試完成每週的作業。
3 善用google 蒐尋,指令如果不清楚、或執行出現錯誤訊息,均可複製關鍵字,請教 google 大師,根據過往經驗,百分之九十以上的問題都可以獲得解答。
4 課堂上所用到的 python 模組,在網路上均有官方網頁,上有指令、語法、各項功能的清楚說明,並附教學範例。從官方網頁上查詢資訊,是進階學習的必要。
5 每週有作業,課堂上編有學習小組,期末有專題報告小組,組員間要彼此支援,互補有餘,每週都要完成作業,努力趕上進度,不要落後,此點至為重要。 
課程要求
本課程強調實作,光是聽講沒有用。
每週都有作業,期末有專案報告,估計平均每週要花十個小時,看懂學習包、練習,並完成作業。 
預期每週課後學習時數
 
Office Hours
另約時間 
指定閱讀
 
參考書目
第一週指定閱讀
What is Text Mining?
https://www.youtube.com/watch?v=I3cjbB38Z4A
Jupyter Notebook Tutorial | Introduction To Jupyter Notebook,
Jupyter Notebook Tutorial | Introduction To Jupyter Notebook | Python Jupyter Notebook | Simplilearn - YouTube

第二週指定閱讀
Python 程式語言簡介
https://yungyuc.github.io/oldtech/python/python_intro.html
Python Variables | Python Variables & Data Types
Python Variables | Python Variables & Data Types | Python Tutorial | Python Programming |Simplilearn - YouTube
第二週進階閱讀
學習python-初學者全程, 教學影片
https://reurl.cc/kL2Wxn

第三週指定閱讀
迴圈, http://yltang.net/tutorial/python/11/
函式, http://yltang.net/tutorial/python/12/
決策結構, http://yltang.net/tutorial/python/10/
第三週進階閱讀
除錯, http://yltang.net/tutorial/python/4/

第四週指定閱讀
Introduction - Data Analysis and Data Science with Python and Pandas,
https://reurl.cc/2oeO5m
第四週進階閱讀
Data Analysis with Python3 and Pandas,
https://www.youtube.com/playlist?list=PLQVvvaa0QuDfSfqQuee6K8opKtZsh7sA9

第五週指定閱讀
十五分鐘認識正規表達式,解決所有文字難題,
https://5xruby.tw/posts/15min-regular-expression
第五週進階閱讀
正規表達式, https://developer.mozilla.org/zh-TW/docs/Web/JavaScript/Guide/Regular_Expressions

第六週指定閱讀
如何用Python清理文字資料? https://www.gushiciku.cn/pl/pewT/zh-tw
中文斷詞, https://blog.maxkit.com.tw/2020/08/blog-post.html
第六週進階閱讀
NLP中文斷詞, https://reurl.cc/1oELYY

第七週指定閱讀
使用python進行中文詞頻分析,
https://www.twblogs.net/a/5b8251692b71772b88302558
第七週進階閱讀
金觀濤, 邱偉雲, 劉昭麟,「共現」詞頻分析及其運用- 以「華人」觀念起源為例,
http://www.dadh-record.digital.ntu.edu.tw/config_xml/2011config/programINFO/ppt/4.2.s.pdf
吳漢銘, 文字視覺化, http://www.hmwu.idv.tw/web/R/G03-hmwu_R-TextVis.pdf

第八週指定閱讀指定閱讀
Loet Leydesdorff a. & Ping Zhou b., Co-word Analysis using the Chinese Character Set, https://arxiv.org/ftp/arxiv/papers/0911/0911.1451.pdf
第八週進階閱讀
以特徵詞共現特性探討知識管理研究議題相關性, http://jim.johogo.com/pdf/1704/JIM-1704-02-fullpaper.pdf
第九週指定閱讀
林書佑, 中文文本探勘工具:主題分析、詞組關聯強度、相關句擷取,
https://reurl.cc/MkgmXv
第九週進階閱讀
邵軒磊, 文字探勘技術輔助主題分析—以「中國大陸研究」期刊為例,
https://web.ntnu.edu.tw/~samtseng/papers/Text_Mining_for_Mainland_China_Studies.pdf

第十週指定閱讀
自然語言處理 — 使用 K-Means++ 比較各縣市市長就職典禮演講
https://reurl.cc/Yjb58a
第十週進階閱讀
ptt文章標題群集分析, https://collabin.netlify.app/derek/title-clustering/

第十一週指定閱讀
Word Embedding、詞嵌入、詞向量, https://reurl.cc/Q6glZO
第十一週進階閱讀
『自然語言處理』(NLP) 概念介紹, https://ithelp.ithome.com.tw/articles/10193224

第十二週指定閱讀
看懂 NLP 中的文字情感分析任務, https://www.gushiciku.cn/pl/pmIR/zh-tw
第十二週進階閱讀
大數據輿情感分析,如何提取情感並使用什麼樣的工具? https://bigdatafinance.tw/index.php/finance/others/342-2017-03-17-14-07-42

第十三週指定閱讀
機器學習如何運作?https://www.sap.com/taiwan/insights/what-is-machine-learning.html
初學者碰上「機器學習」的第一道關卡:我應該使用哪種算法?
https://buzzorange.com/techorange/2017/05/25/which-method-in-ai/
第十三週進階閱讀
機器學習 – 定義、演算法、以及商業應用
https://oosga.com/pillars/machine-learning/
Machine Learning vs Statistical Modeling, https://reurl.cc/WXgYA9
Machine Learning - Supervised VS Unsupervised Learning, https://reurl.cc/gz3bRX

第十四週指定閱讀
機器學習演算法, https://azure.microsoft.com/zh-tw/overview/machine-learning-algorithms/#popular-algorithms
機器學習概念和經典演算法,https://reurl.cc/L7gx27
從數據分析到模型整合,各種好用的演算法,
https://buzzorange.com/techorange/2019/08/13/machine-learning-algorithm-collection/ 
評量方式
(僅供參考)
 
No.
項目
百分比
說明
1. 
no 
100% 
 
 
課程進度
週次
日期
單元主題
無資料